01. SLR(Simple Linear Regression)

Applied statistics
Simple Linear Regression
Author

김보람

Published

March 30, 2023

해당 자료는 전북대학교 이영미 교수님 2023응용통계학 자료임

회귀모형 적합

1. 산점도(시각화), 상관 계수 (두 변수 사이 관계 요약)

2. 회귀모형 적합: \(\widehat E(y|x) = \widehat \beta_0 + \widehat \beta_1 x, \epsilon \sim N(0, \widehat \sigma^2)\)

- 모수추정

  • \(\widehat\beta_0, \widehat\beta_1\) : 최소제곱추정량(LSE)

  • \(\widehat\sigma^2\) : MSE

3. 통계적 유의성 검정

- 회귀직선의 유의성 검정

  • F검정

  • \(H_0 : \beta_1 = 0 \ vs \ H_1 : \beta_1 \neq 0\)

- 개별 회귀 계수의 유의성 검정

  • t검정

  • \(H_0 : \beta_0 = 0 \ vs \ H_1 : \beta _{0}=\begin{cases} >0\\ \neq 0\\ <0\end{cases}\)

  • \(H_0 : \beta_1 = 0 \ vs \ H_1 : \beta _{1}=\begin{cases} >0\\ \neq 0\\ <0\end{cases}\)

NOTE: 단순회귀모형에서는 회귀직선이 유의성검정, 개별회귀 계수의 유의성 검정이 같다. 중회귀모형에서는 다르다.

4. 모형의 적합도

  • \(\mathbb{R} ^{2}\), MSE, \(\dots\)

5. 회귀진단

  • 잔차분석(오차항에 대한 가정 검토)

  • 이상점(leverage point)

  • 변수선택, 다중곤산성

단순선형회귀 모형

\(y=\beta_0+\beta_1x+\epsilon, \epsilon \sim_{i.i.d} N(0,\sigma^2)\)

\(E(y_i|x_i) = \widehat\beta_0 + \widehat \beta_1 x_i\)

- Linearity(선형성)

\(E(y|x)= \mu_{yx} = \beta_0 + \beta_1x\)

i.e \(E(\epsilon_i)=0\)

- Homoscedastic(등분산성)

\(Var(y|x)=\sigma^2\)

i.e \(Var(\epsilon_i)=\sigma^2\)

- Normality(정규성)

\(y|x \sim N(E(y|x),\sigma^2)\)

i.e \(\epsilon \sim N(0,\sigma^2)\)

- Independency(독립성)

\(\epsilon\)s are mutually independent

i.e \(y_i\)도 독립

LSE

  • Least Square Estimation

- 오차제곱합

\(S=\sum_{i=1}^n \epsilon_i^2 = \sum_{i=1}^n [{y_i-(\beta_0+\beta_1 x_i)}]^2\)

- 최소제곱추정량(LSE)

\((\widehat \beta_0, \widehat \beta_1) = argmin_{\beta_0,\beta_1 \in \mathbb{R}} \sum_{i=1}^n [y_i-(\beta_0+\beta_1 x_i)]^2\)

\(\widehat \beta_1 = \dfrac{\sum_{i=1}^n (x_i- \bar x)(y_i - \bar y)}{\sum_{i=1}^n (x_i - \bar x)^2} = \dfrac{S_{(xy)}}{S_{(xx)}}\)

\(\widehat \beta_0 = \bar y - \widehat \beta_1 \bar x\)

\(\bar y = \dfrac{1}{n} \sum_{i=1}^n y_i, \bar x = \dfrac{1}{n} \sum_{i=1}^n x_i\)

오차분산(\(\sigma^2\))

- 잔차(오차)제곱합 (residual (or error) sum of squares)

\[SSE = \sum_{i=1}^n(y_i-\widehat y_i)^2 = \sum_{i=1}^n e_i^2\]

- 평균제곱오차(MSE: Mean Squared Error)

\[MSE=\dfrac{SSE}{n-2}\]

  • 분모 \(n-2\)의 의미: \(\widehat \beta_0, \widehat \beta_1\)을 구하기 위해서 제약조건 2개(\(\sum e_i=0, \sum x_i e_i=0\)) 제거

- 오차분산의 추정값

\[\widehat \sigma^2 = MSE\]

  • 오차가 작아지면 SSE가 낮아진다..

제곱합의 분해

\[SST(총제곱합)=SSE(잔차제곱합)+SSR(회귀제곱합)\]

\[\sum_{i=1}^n(y_i- \bar y)^2 = \sum_{i=1}^n(y_i- \widehat y_i)^2 + \sum_{i=1}^n(\widehat y_i- \bar y)^2\]

결정계수

- Coefficien of determination

\[\mathbb{R^2}=\dfrac{SSR}{SST}=1-\dfrac{SSE}{SST}\]

  • 회귀직선의 기여율(총변동 가운데 회귀직선으로 설명되는 변동의 비율)

  • \(0 \leq \mathbb{R^2} \leq 1\)

  • 1에 가까울수록 설명이 잘됨

  • \(\mathbb{R^2}=r^2\)(r:sample correlation) : 단순선형회귀모형에서만 성립

분산분석(ANOVA)

- 분산분석표

요인 제곱합(SS) 자유도(df) 평균제곱(MS) \(F_0\) 유의확률
회귀 \(SSR\) 1 \(MSR=\dfrac{SSR}{1}\) \(\dfrac{MSR}{MSE}\) \(P(F \geq F_0)\)
잔차 \(SSE\) \(n-2\) \(MSE=\dfrac{SSE}{n-2}\)
\(SST\) \(n-1\)
  • \(F \sim F(1,n-2)\)

  • \(F_0 > F(1,n-2;\alpha) \to\) 유의수준 \(\alpha\)하에서 회귀직선이 유의

  • qf\((100(1-\alpha),1,n-2)\)

회귀직선의 유의성 검정

- F-test

  • 가설: \(H_0: \beta_1 = 0 \ vs \ H_1:\beta_1 \neq 0\)

  • 검정통계량 \(F=\dfrac{MSR}{MSE}=\dfrac{SSR/1}{SSE/(n-2)} \sim_{H_0} F(1,n-2)\)

  • 유의수준 \(\alpha\)에서 기각역: \(F_0 \geq F_\alpha(1,n-2)\)

  • 유의확률 = \(P(F \geq F_0)\)

회귀계수에 대한 추론

\(\beta_1\)에 대한 추론

\[\widehat \beta_1 = \dfrac{S_{(xy)}}{S_{(xx)}}\]

분자 \(S_{(xy)}= \sum(x_i - \bar x)(y_i - \bar y) = \sum(x_i - \bar x)y_i - \sum(x_i- \bar x)\bar y= \sum(x_i - \bar x)y_i\)

\(\widehat \beta_1 = \dfrac{S_{(xy)}}{S_{(xx)}}=\dfrac{\sum(x_i-\bar x)y_i}{S_{(xx)}}=\sum \dfrac{x_i- \bar x}{S_{(xx)}} y_i= \sum a_i y_i\)

\[\widehat \beta_1 \sim N(\beta_1, \dfrac{\sigma^2}{S_{(xx)}})\]

- \(E(\widehat \beta_1)=\beta_1\) : 불편추정량(unbiase-)

  • \(E(\widehat \beta_1)\)

= \(\sum a_i E(y_i)\)

= \(\sum \dfrac{(x_i - \bar x)}{S_{xx}}(\beta_0 + \beta_1 x_i)\)

= \(\dfrac{1}{S_{xx}}[\beta_0 \sum(x_i - \bar x) + \beta_1 \sum(x_i - \bar x) x_i]\)

\(\because \sum(x_i - \bar x)=0\)

\(\because \sum(x_i - \bar x)(x_i -\bar x + \bar x) = \sum(x_i- \bar x)^2 + \bar x \sum(x_i - \bar x) =\sum(x_i- \bar x)^2= S_{(xx)}\)

= \(\dfrac{\beta_1 S_{xx}}{S_{xx}} = \beta_1\)

- \(Var(\widehat \beta_1)\)

  • \(Var(\widehat \beta_1)\)

= \(Var(\sum a_i y_i)\)

= \(\sum a_i^2 Var(y_i)\)

\(\because Var(y_i)=\sigma^2\)

= \(\sigma^2 \sum a_i^2\)

= \(\sigma^2 \sum \dfrac{(x_i- \bar x)^2}{S_{xx}^2}\)

= \(\sigma^2 \dfrac{S_{xx}}{S_{xx}^2}\)

= \(\dfrac{\sigma^2}{S_{xx}}\)

- BLUE

  • Best Linear Unbiased Estimation

\[\widehat{Var}(\widehat \beta_1) = \dfrac{MSE}{S_{xx}}\]

\[\widehat \sigma_{\widehat \beta_1} = \sqrt{\dfrac{MSE}{S_{xx}}}\]

- stuendtized \(\widehat \beta_1\)의 분포

\[\dfrac{\widehat \beta_1 - \beta_1}{\widehat \sigma / \sqrt{S_{xx}}} \sim t(n-2), \widehat \sigma = \sqrt{MSE}\]

- \(\widehat \beta_1\)\(100(1-\alpha)\)% 신뢰구간

\[\widehat \beta_1 \pm t_{\alpha/2}(n-2) \dfrac{\widehat \sigma}{\sqrt{S_{xx}}}\]

  • \(\sigma\)를 몰라 추정하므로 t분포로 바뀌고 분산이 더 커진다.

- 모회귀계수(기울기) \(\beta_1\)에 대한 추론

  • t검정

  • \(H_0 : \beta_1 = 0 \ vs \ H_1 : \beta _{1}=\begin{cases} >0\\ \neq 0\\ <0\end{cases}\)

  • 검정통계량

\[\dfrac{\widehat \beta_1 - \beta_1}{\widehat \sigma / \sqrt{S_{xx}}} \sim t(n-2)\]

\(\beta_0\)에 대한 추론

- \(\beta_0\)의 최소제곱추정량

\[\widehat \beta_0 = \bar y - \widehat \beta_1 \bar x\]

\[\widehat \beta_0 \sim N(\beta_0, \sigma^2(\dfrac{1}{n} + \dfrac{\bar x^2}{S_{xx}}))\]

- stuendtized \(\widehat \beta_0\)의 분포

\[\dfrac{\widehat \beta_0 - \beta_0}{\widehat \sigma_{\widehat \beta_0}} \sim t(n-2) , \widehat \sigma_{\widehat \beta_0} = \widehat \sigma \sqrt{\dfrac{1}{n}+\dfrac{\bar x^2}{S_{xx}}}\]

- \(\widehat \beta_1\)\(100(1-\alpha)\)% 신뢰구간

\[\widehat \beta_0 \pm t_{\alpha/2}(n-2) \widehat \sigma \sqrt{\dfrac{1}{n}+\dfrac{\bar x^2}{S_{xx}}}\]

평균반응예측

- \(x=x_0\)가 주어졌을 때 평균 반응 예측(prediction)

- 평균반응

\[\mu_0 = E(Y|x_0)=\beta_0+\beta_1x_0\]

- 평균반응 추정량

\[\widehat \mu_0 = \widehat \beta_0 + \widehat \beta_1 x_0\]

\[\widehat \mu_0 \sim N(\mu_0, \sigma^2(\dfrac{1}{n} + \dfrac{(x_0 - \bar x)^2}{S_{xx}}))\]

- stuendtized \(\widehat \mu_0\)의 분포

\[\dfrac{\widehat \mu_0 - \mu_0}{\widehat \sigma_{\widehat \mu_0}} \sim t(n-2) \ , \ \widehat \sigma_{\widehat \mu_0} = \widehat \sigma \sqrt{\dfrac{1}{n}+\dfrac{(x_0 - \bar x)^2}{S_{xx}}}\]

- \(\widehat \mu_0\)\(100(1-\alpha)\)% 신뢰구간

\[\widehat \mu_0 \pm t_{\alpha/2}(n-2) \widehat \sigma \sqrt{\dfrac{1}{n}+\dfrac{(x_0 - \bar x)^2}{S_{xx}}}\]

개별적인 \(y\)값 예측

\(y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0\)

  • 예측값: \(\widehat y_0 = \widehat \beta_0 + \widehat \beta_1 x_0\)

\[\widehat y_0 \sim N(\mu_0, (1+\dfrac{1}{n}+\dfrac{(x_0 - \bar x)^2}{S_{xx}})\sigma^2)\]

  • 분산에 있는 1+~ 의 1은 \(\widehat e\) 때문에 생김.ㅡ

- stuendtized \(\widehat y_0\)의 분포

\[\dfrac{\widehat y_0 - y_0}{\widehat \sigma_{\widehat y_0}} \sim t(n-2) \ , \ \widehat \sigma_{\widehat y_0} = \widehat \sigma \sqrt{1+\dfrac{1}{n}+\dfrac{(x_0 - \bar x)^2}{S_{xx}}}\]

- \(\widehat y_0\)\(100(1-\alpha)\)% 신뢰구간

\[\widehat y_0 \pm t_{\alpha/2}(n-2) \widehat \sigma_{\widehat y_0}\]

잔차

  • residual

  • \(e_i = \widehat \epsilon_i = y_i - \widehat y_i, i=1,\dots,n\)

- 잔차의 성질

  • 잔차의 합은 0이다 (\(\sum_{i=1}^n e_i = 0\))

  • \(\sum_{i=1}^n e_i^2\)은 최소값을 갖는다. (\(\widehat \beta_0,\widehat \beta_1\):minimize LSE)

  • 잔차의 \(x_i\)에 의한 가중합은 0이다. (\(\sum_{i=1}^n x_i e_i = 0\))

  • 잔차의 \(\widehat y_i\)에 의한 가중합은 0이다. (\(\sum_{i=1}^n \widehat y_i e_i = 0\))

  • (\(\bar x, \bar y\))는 적합된 휘귀직선 위에 있다.

  1. 선형성(0을 대칭으로 잘 펴져있는지)

  2. 등분산성

  3. 정규성(표준화)

\(e \to \dfrac{e- \bar e}{s.e(e)} \sim N(0,1)\)

  1. 독립성

Durbin-Waston Test

- 가정

\(H_0\):오차항들은 독립이다.

vs

\(H_1\): 오차항들은 독립이 아니다.

\(H_1\): 오차항들은 양의 상관관계를 갖는다.

\(H_1\): 오차항들은 음의 상관관계를 갖는다.

- 검정통계량

\[d= \dfrac{\sum_{t=2}^n(e_t - e_{t-1})^2}{\sum_{t=1}^n e_t^2}\]

  • 0~4의 값

  • 4에 가까울수록 음의상관관계가 큼

  • 2에 가까울수록 양의상관관계가 큼

  • 2는 기준으로 2에 가까우면 결정 보류